AMD 불도저 마이크로아키텍처 (문단 편집)

=== 깊은 파이프라인 ===
이로 인한 문제점을 클럭을 상승시켜서 벌충하기 위해 파이프라인 스테이지당 게이트 수를 줄이고 파이프라인의 스테이지를 늘렸는데[* 투반 코어당 3개, 총 14스테이지. 불도저 코어당 2개, 총 18 스테이지], 깊은 파이프라인은 통상적으로 분기 예측[* 다음 명령이 무엇인지 예측하여 처리시간을 단축하여, 성능 향상과 전력 감소 효과를 볼 수 있게 해 준다.]의 적중률을 떨어뜨리면서 IPC 저하를 유발하여 결국 성능 증가에 발목을 잡게 된다. 또한 분기 예측에 실패했을 경우 해당 파이프라인을 비우고 처음부터 다시 계산해야 하는데, 투반에서는 실패할 경우 14단계를 밟아서 다시 계산하는 반면에, 불도저는 18단계를 밟아서 다시 계산하게 된다. 이것을 파이프라인 버블이라고 한다.

이 같은 문제점은 [[인텔]]도 [[인텔 펜티엄4 시리즈|펜티엄 4]]에서 경험했는데 그나마 불도저는 윌라멧(20)이나 프레스캇(31)정도는 아니니 그보다는 조금 나은 상황(...)이다. 게다가 [[인텔 네할렘 마이크로아키텍처|네할렘]]이나 [[샌디브릿지]]와 비슷한 수준(16~19)이다. 하지만 안타깝게도 인텔에는 넷버스트 시절에 큰 도움은 되지 않았어도 ALU가 한 사이클에 두 번의 연산을 수행하여 부족한 정수 유닛의 숫자를 제한적으로나마 벌충하는 2배속 ALU가 있었으나 AMD는 그 조차도 없으며, 역시 인텔에선 넷버스트 시절에 도입되어 샌디브릿지 세대부터 다시 등장한 µop 캐시[* 펜티엄 4 시절에는 트레이스 캐시라 불리던 것으로, 디코드 단계를 생략할 수 있게 하여 밟아야 하는 파이프라인 단계를 줄여주는 캐시이다. 초창기 펜티엄4 윌라멧이 펜티엄3 보다 느렸던 이유 중 하나는 파이프라인 단계는 늘렸는데 정작 이 문제를 완화시켜 줄 트레이스 캐시의 크기는 작아서 적중률이 떨어져 그 기능이 취약했기 때문이었다. 노스우드에서 이걸 무려 8배나 늘려 문제를 해결한다. 다만 윌라멧의 0.18㎛ 공정이 노스우드A에서 0.13㎛ 공정으로 개선되면서 클럭 속도가 33% 정도 증가했고 L2 캐시 메모리 용량이 2배로 확장되면서 P6 대비 떨어지는 IPC를 캐시 메모리 증가와 높은 클럭으로 벌충한 것이라 트레이스 캐시의 개선이 준 효과가 어느 정도인지는 명확하지 않다.]라는 것이 있는데, AMD에는 이것이 없어서 분기 예측에 실패할 경우 더 많은 페널티를 가지게 된다는 것이다. [[http://www.anandtech.com/show/5057/the-bulldozer-aftermath-delving-even-deeper/2|ANANDTECH]]에서는 분기 예측에 실패할 경우 K10은 12사이클, 불도저는 20사이클, 넷버스트는 20사이클, 샌디브릿지는 14~17사이클로, 대부분 불도저보다 페널티가 더 적다.

여기서 AMD의 비애가 드러난다. AMD의 경우 K7부터 K10까지 K7시절부터 이어져 온 퀀티스피드 아키텍처의 큰 틀을 유지하면서 개량을 거듭하여 사용해 왔는데, 이 아키텍처가 너무나도 잘 만든 아키텍처라 무려 12년 넘는 세월까지 개량을 하는 것 만으로도 충분히 사용할 수 있었고, 코어 아키텍처가 나오기 전까지만 해도 인텔에 비해 구조적으로 우위에 있었다. 그러나 AMD를 영광으로 이끌었던 당시 엔지니어들은 대부분이 퇴사한 상태였으며 설상가상으로 자금이 부족해 자동화 설계와 저급 엔지니어들로 설계를 했어야 하는 상황이었다. 게다가 CMT의 개념을 잡아 준 것이 그 퇴사한 엔지니어들이었으며, 설계 경험이 거의 없는 그들이 만든 것이 재앙급의 불도저라는 것이다.

오히려 불도저는 샌디브릿지에 비해 정수 연산 성능이 뛰어나므로, 파이프라인 증대가 성능 하락을 유발했다고 보기 힘들다. 극단적으로 깊은 파이프라인의 대명사인 [[프레스캇]]이 워낙 정신 나간 수준의 31단계 파이프라인을 채택하면서 파이프라인의 단수가 주목을 받은 것이고 결국 노트북 전용이었지만 [[펜티엄M]]의 클럭당 성능, 전성비를 가졌던 P6 개량판을 토대로 65nm 공정으로 미세화 · 네이티브 듀얼코어화 · SSE3 추가가 적용된 코어 듀오를 거치고, 여기에 아키텍처도 대대적으로 개량하고 후기형 펜티엄 4에서 선보였던 64비트까지 대응된 코어 아키텍처 기반의 코어2 듀오로 넘어가자 인텔 역사상 펜티엄 4, 펜티엄 D 대비 역변급의 성능 향상이 이뤄지면서 깊은 파이프라인에 대해 부정적인 이미지가 쌓였던 것이었을 뿐. 대표적인 사례가 워낙 심하게 망해서 그렇지 사실 파이프라인 페널티를 충분히 상쇄할 수 있는 구조를 추가한다는 전제 하에 파이프라인을 늘리는 것은 그렇게 큰 문제가 되지 않는다. 가령 스카이레이크의 경우에도 14nm에 진입하면서 부분별 절전 계획이 힘들어지자 파이프라인을 하스웰보다 늘렸다. 하지만 소비 전력은 굉장히 적다. 사실 프레스캇의 경우 공정의 누설 전류를 고려하지 않고 무리하게 파이프라이닝한 것이 문제였다. 오히려 Zen 아키텍처 기반 코어에 마이크로옵 캐시가 도입된 걸 보면 파이프라인은 불도저에서 거의 줄어들지 않거나 하스웰 정도에 머무를 가능성이 높다. 분기 예측 성능에 영향을 많이 받는 정수 연산과는 달리 부동소수점 연산 성능은 대체로 높은 클럭이 성능을 결정한다. 처참한 FPU 성능을 고클럭으로 상쇄하기 위해 파이프라인 단계를 늘렸다고 해석할 수도 있다.

저장 버튼을 클릭하면 당신이 기여한 내용을 CC-BY-NC-SA 2.0 KR으로 배포하고,
기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다.
이 동의는 철회할 수 없습니다.

AMD 불도저 마이크로아키텍처 (문단 편집)

캡챠